AI产业链地图·知识库 NVIDIA TensorRT-LLM · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/NVIDIA TensorRT-LLM
更新 2026·06·17
概念 技术 / 术语

NVIDIA TensorRT-LLM

TensorRT-LLM · TensorRT · TRT-LLM

TensorRT 是 NVIDIA 的高性能深度学习推理优化器和运行时引擎;TensorRT-LLM 是专门面向 LLM 推理的开源库,提供从 PyTorch / Hugging Face 模型到优化部署的完整工具链。

NVIDIA TensorRT-LL CONCEPT · 概念
首次提出
2023
关键参与方
[[NVIDIA]] · [[vLLM]] · [[硅基流动]]
反向引用
22 处 · 来自 16
归属 推理引擎LLMNVIDIA第四层

NVIDIA TensorRT-LLM

NVIDIA 推出的高性能深度学习推理优化器;TensorRT-LLM 专门针对大语言模型推理优化;GPU 推理领域事实标准

定义

TensorRT 是 NVIDIA 的高性能深度学习推理优化器和运行时引擎;TensorRT-LLM 是专门面向 LLM 推理的开源库,提供从 PyTorch / Hugging Face 模型到优化部署的完整工具链。

核心技术

  • FP16 / INT8 / INT4 量化:多精度优化
  • 层融合(Layer Fusion):将多个算子融合成单一 CUDA Kernel,减少 GPU 内核启动开销
  • 动态张量内存管理:减少内存碎片
  • In-Flight Batching(类似 vLLM Continuous Batching)
  • Tensor Parallelism / Pipeline Parallelism
  • 投机解码(Speculative Decoding)支持
  • KV-Cache 优化

主要玩家

在 AI 产业链中的角色

  • GPU 推理事实标准:凭借 NVIDIA GPU 的绝对市场优势,TensorRT 在 GPU 推理优化领域具有事实标准地位
  • 企业级首选:TensorRT-LLM 已成为主流云服务商部署大模型的首选推理框架之一
  • 生态控制力:CUDA 生态的延伸 — 与 NVIDIA Triton Inference Server 配合形成完整推理基础设施

与 vLLM 的差异

维度 TensorRT-LLM vLLM
性质 NVIDIA 官方 UC Berkeley 开源
性能 在 NVIDIA GPU 上最优 跨硬件通用
易用性 编译流程复杂 Python 友好
硬件覆盖 仅 NVIDIA 多厂商(含 AMD、华为、Intel)
社区 NVIDIA 主导 开源社区驱动

演进历史

  • 2019 TensorRT 7 发布
  • 2023-10 TensorRT-LLM 首发
  • 2024 持续更新,支持 Llama / Mixtral / Mistral / DeepSeek 等主流开源模型
  • 2025 与 NVIDIA Triton 集成更深,Blackwell GPU 原生优化

相关概念

⚔ competitor:: vLLM ∈ belongs_to::4-04-模型部署与优化